自动语音识别(ASR)中编辑的后编辑需要自动纠正ASR系统产生的常见和系统错误。 ASR系统的输出在很大程度上容易出现语音和拼写错误。在本文中,我们建议使用强大的预训练的序列模型BART,BART进一步适应训练以作为剥夺模型,以纠正此类类型的错误。自适应培训是在通过合成诱导错误以及通过合并现有ASR系统中的实际错误获得的增强数据集上执行的。我们还提出了一种简单的方法,可以使用单词级别对齐来恢复输出。对重音语音数据的实验结果表明,我们的策略有效地纠正了大量的ASR错误,并在与竞争性基线相比时会产生改善的结果。我们还强调了在印地语语言中相关的语法误差校正任务中获得的负面结果,显示了通过我们建议的模型捕获更广泛上下文的限制。
translated by 谷歌翻译